M2.959 · Visualització de dades · PRA2

2022 - Màster universitari en Ciència de dades (Data science)

Estudis d'Informàtica, Multimèdia i Telecomunicació

 
Nom i cognoms: David Malvesí José

PRA 2: Creació de la visualització i lliurament del projecte

Índex:

  1. Introducció
  2. Selecció del conjunt de dades
    2.1 Objectiu
    2.2 Preparació
  3. Creació de la visualització
    3.1 Plantejament de preguntes
    3.2 Exploració de les dades i anàlisi estadístic bàsic
    3.3 Disseny: com representar les dades
    3.4 El procés de visualització

1. Introducció

El present projecte d'estudi contempla desenvolupar una visualització de dades que expliqui un conjunt de dades triat a partir d'una sèrie de qüestions definides. S'emprarà eines diverses i avançades per a la creació de visualitzacions.

2. Selecció del conjunt de dades

2.1 Objectiu

Es selecciona un conjunt de dades extens: data-homicides

Link: https://github.com/washingtonpost/data-homicides

Dataset: https://raw.githubusercontent.com/washingtonpost/datahomicides/master/homicide-data.csv

Consisteix en un conjunt de 50.000 assassinats no resolts d’EEUU. El joc té dades de noms, edats, latituds-longituds, estats,... un gran nombre d’atributs i de tot tipus.

La llicència és lliure, i l’ha generat el diari the Washington Post. S’empra com a selecció personal, no hi ha motius professionals.

El conjunt en si no té gaire relevància, i du força temps sense ser modificat. Les últimes morts registrades són del 2017, així que no són dades actuals ni actualitzades. Pero tracten molts temes com la raça, edat, finalització del cas, gènere de la persona etc,...

Les variables són les següents:

2.2 Preparació de les dades

Tot seguit s'importarà les dades així com la comprovació de la seva integritat, diversitat i credibilitat.

Degut a la poca quantiat de nuls que existeixen, es decideix eliminar aquestes entrades per a tenir el dataset complet.

Tenint en compte que inicialment existien 52179 valors i s'havien eliminat 61 més 2999, no existeix cap valor duplicat.

Aquí s'observa que hi ha molta feina a preprocessar els números com l'edat es troven en format incorrecte, i la data 'reported_date' tampoc és llegible.

3. Creació de la visualització

3.1 Plantejament de les preguntes

El primer és determinar a qui va dirigida la visualització, i és que, tenint en compte que les dades no són técniques, sinò que són de coneixement general, la intenció és que la visualització vagi destinada a tot el públic en general, i no englobant només a la ciutadania d'Estats Units, sinò també a la resta del món que desitgi consultar-les.

Remarcar moltíssim el context previ a les visualitzacions on Estats Units és un dels països on hi ha lliure circulació d'armes de foc i cada cop s'està dirigint en un país on la desigualtat augmenta exponencialment. Actualment EEUU té un índex de pobresa del 12%, i l'1% de la població més rica cada cop està ingressant més. Potser aquests punts haurien de plantejar-se sobre la taula, ja que tractant-se del país més ric del món potser és impropi que hi hagi tanta població al carrer. Només el lloguer per viure ja repressenta gairebé el 100% dels ingressos de molts estadiunidencs en les grans ciutats com San Francisco, i la població es veu destinada a compartir pis. Aquestes dades haurien de col·locar-se a la visualització, ja que dónen molta informació al context al qual es pot donar aquesta clase d'assasinats.

Moltes d'aquestes dades poden ser contrastades a la BBC:

https://www.bbc.com/mundo/noticias-47488330

Arribats a aquest punt i tenint en compte del context gloval de les dades, es plantegen les següents qüestions:

Es pot donar resposta a totes les preguntes amb el dataset? Sí, almenys fins al 2017, última entrada de les dades. També es confia que la font de les dades és el diari theWashingtonPost, un medi de comunicació molt important a nivel global. Recordar que les dades contenen la raça, data i localització de cadascun dels assasinats.

Per les respostes, s'haurà d'emprar totes les dades excepte l'índex [uid] i els noms i cognoms de les víctimes.

Així doncs, s'eliminen del dataset per fer-lo compacte:

Així que finalment s'exporta el csv per començar a representar i treballar les dades

3.2 Exploració de les dades i anàlisi estadístic bàsic

A continuació es mostra una primera visualització de les dades. Primerament es descriuen les variables categòriques:

Crida a l'atenció com el major nombre de víctimes han sigut negres, l'estat amb més assassinats California, la ciutat amb més Chicago i les víctimes majoritàriament són homes.

Sobre les dades numèriques és inmediat trobar les dades següents:

Sembla ser que no comparteix del tot que sigui una variable que segueixi la llei normal.

Finalment es comprova que la variable 'victim_age' no segueix la llei normal, ja que amb el p-value tant baix (nivell triat de 0.05) es rebutja la hipòtesis nul·la de normalitat.

Tot i així es cerca per outliers i sembla ser que no n'hi ha ja que tots els valors són realistes:

Previsiblement aquí es podria situar un mapa d'estats units i poder observar com quedarien dispersats els casos

3.3 Disseny: com representar les dades

Està clar que amb totes aquestes variables quantitatives i qualitatives, les represetnacions que es poden fer per a donar resposta a les preguntes plantejades con molt variades.

Important marcar com serà la presentació:

Es planteja el següent a mode de representació de dades:

Apart de l'infograma, es decideix provar el mòdul folium per generar un mapa de calor sobre els assassinats. Així doncs:

És interessant veure com hi ha estats que no es veuen afectats per els assasinats. Seria bo fer un zoom a la ciutat més tacada i veure els barris més segurs.

la màxima és Chicago així que visualitzem:

Des d'aquí s'anima a fer zoom, ampliant i veient les diferents àrees del mapa.